TP-3 Variables quantitatives

[](https://media.tenor.com/DJf4rQ8JzSoAAAAM/mountain-climb.gif}

Nombres d’enfants

Individu: Un couple

Population: Les couples francais

Variable: le nombre d’enfant de moins de 25 ans par couples. variable quantitative discrète

Les modalités: au nombre d’enfants de moins de 25 ans par couple, allant de zéro à un nombre élevé.

library(ggforce)
## Loading required package: ggplot2
library(ggplot2)
theme_set(theme_light())
library(here)
## here() starts at /home/thomas/Desktop/DO/R/do3-dataviz/RenduTP
library (readr)
library(tidyr)

couples <- read_delim("~/Desktop/DO/R/do3-dataviz/RenduTP/data/rp2017_td_fam2.csv", 
    delim = "\t", escape_double = FALSE, 
    col_types = cols(...8 = col_skip()), 
    trim_ws = TRUE, skip = 6)
## New names:
## • `` -> `...1`
## • `` -> `...8`
couples <- na.omit(couples)
colnames(couples) <- c("Situation", "0", "1", "2", "3", "4", "total")
couples$Situation <- c("mariées", "pacsees", "concubinage", "autre", "total")
head(couples)

Décrivez les données en quelques mots.

Les données donnent le nombre d’enfants de moins de 25 ans par couple en France en 2017. La majorité des couples ont aucun ou un ou deux enfants de moins de 25 ans. Les couples mariés ont en moyenne plus d’enfants que les autres types de couples. Les couples pacsés ont en moyenne moins d’enfants que les couples mariés. Les couples ayant un autre statut conjugal ont en moyenne le moins d’enfants.

Formatage

formattedTable <- pivot_longer(couples, cols = c ("0", "1", "2", "3", "4"), names_to="enfants", values_to="compte")
formattedTable

Polygone de fréquence

ggplot(formattedTable, aes(x = enfants,
                         y = compte / total, 
                         color = Situation,
                         group = Situation))+ 
  geom_line() + 
  xlab("Nombres d'enfants") +
  ylab("Fréquence")

Ici une representation en ligne nous permet facilement de nous rendre compte de la répartition du nombre d’enfant en fonction de la situation du couple. Ici on se rend compte que les mariés ont plus souvent 0 enfants que les gens pacsees. Les couples pacsees ont tendance à avoir plus souvent 1 ou 2 enfants que les couples mariées. Les couples mariés ont en revanche plus souvent 3 ou 4 enfants que les couples pacsees

Graphe simplifié

subset <- subset(formattedTable, Situation == "mariées" | Situation == "pacsees" )
ggplot(subset, aes(x = enfants,
                         y = compte / total, 
                         color = Situation,
                         group = Situation))+ 
  geom_line() + 
  xlab("Nombres d'enfants") +
  ylab("Fréquence")

ce graphe nous permet de mieux nous rendre compte des différences de fréquences du nombre d’enfants par couple pacsees ou mariés

Autre question

Comment se répartit le nombre d’enfants selon les différentes situations étudiées?

subsetAutreQuestion <- subset(formattedTable)
pie <- ggplot(subsetAutreQuestion,
               aes(x0 = 0, y0 = 0, r0 = 0, r = 1, 
                   amount = compte / total,
                   fill = as.factor(enfants))) +
  coord_fixed() + 
  ggtitle("") + 
  geom_arc_bar(stat = "pie") + 
  ggtitle("Proportion d'enfants par type de situation") + 
  labs( fill = "Nombre d'enfants") +
  theme_void() +
  theme(plot.title = element_text(size = 11, hjust = 0.5),
        legend.position = "right",
        legend.text = element_text(size = 15),
        axis.title = element_blank()) +
    facet_wrap(~Situation, ncol = 3)

pie

Everest

expeditions <- readr::read_csv('https://raw.githubusercontent.com/rfordatascience/tidytuesday/master/data/2020/2020-09-22/members.csv')
## `curl` package not installed, falling back to using `url()`
## Rows: 76519 Columns: 21
## ── Column specification ────────────────────────────────────────────────────────
## Delimiter: ","
## chr (10): expedition_id, member_id, peak_id, peak_name, season, sex, citizen...
## dbl  (5): year, age, highpoint_metres, death_height_metres, injury_height_me...
## lgl  (6): hired, success, solo, oxygen_used, died, injured
## 
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.
expeditions

Description des données

Les données fournies comprennent des informations sur des expéditions d’alpinisme. Chaque ligne représente un membre de l’expédition et contient des détails tels que le nom de l’expédition, le membre de l’expédition, le nom et l’ID du pic, l’année et la saison de l’expédition, le sexe, l’âge, la nationalité, le rôle dans l’expédition, l’embauche, l’altitude du sommet atteint, le succès de l’expédition, si elle a été effectuée en solo, l’utilisation d’oxygène, la mort, la cause du décès, la hauteur du décès, les blessures, le type de blessure et la hauteur de la blessure.

Description de l’experience statistique

Question : “Comment se répartit l’âge des membres d’une expédition réussie vers le Mont Everest ?”

Individu: Les Alpinistes du Mont Everest

Population: l’ensemble des membres des expéditions de l’Everest

Échantillon: Les membres ayant réussit l’expedition

Variable: L’age des membres Modalité: Un nombre

Sélectionnez dans le tableau uniquement les lignes répondant à ces critères, et dont l’âge n’est pas manquant.

everest <- subset(expeditions, success==TRUE & peak_name=="Everest" & !is.na(age))
everest

Représentez ces données sous la forme d’un histogramme. Justifiez le choix de la largeur des classes.

hist(everest$age, breaks = 20, col = "skyblue", xlab = "Âge", ylab = "Fréquence", main = "Répartition de l'âge des membres d'une expédition réussie vers l'Everest")